2. Sıralama Mekanizmaları

MTEB leaderboard'unun en teknik ve sıklıkla yanlış anlaşılan yönü, genel sıralamanın nasıl hesaplandığıdır. Leaderboard'da iki temel sıralama mekanizması kullanılır.

2.1 Borda Rank (Birincil Sıralama Yöntemi)

Borda rank, MTEB leaderboard'unun genel sıralamasını belirleyen ana mekanizmadır. Sosyal seçim teorisinden (social choice theory) ödünç alınan bu yöntem, seçim sistemlerindeki "Borda sayımı"nın (Borda count) benchmark dünyasına uyarlanmış halidir.

Çalışma prensibi:

Her bir görev (task), bağımsız bir "oylayıcı" olarak düşünülür.
Bir görevde N model değerlendirildiyse:
1. model N-1 puan,
1. model N-2 puan,
...
sonuncu model 0 puan alır.
Her modelin tüm görevlerden topladığı puanlar toplanarak Borda votes elde edilir.
En yüksek Borda votes'a sahip model, genel sıralamada birinci olur.

Avantajlar:

Aykırı değerlere (outlier) karşı dayanıklıdır: ham skor yerine sıralama pozisyonu önemlidir.
Farklı metrik ölçekleri normalize edilir: nDCG@10 ile Spearman gibi metrikler sıralamaya dönüştüğünde karşılaştırma daha tutarlı olur.
Genel tutarlılığı ödüllendirir: birçok görevde istikrarlı iyi performans, birkaç görevde zirve + diğerlerinde düşük performansa göre avantajlıdır.

Sınırlılıklar:

Görevler arası ham fark kaybolur (0.001 fark da 1 puan fark gibi yansıyabilir).
Eksik görevleri olan modeller dezavantajlıdır (koşulmayan görevlerden puan toplanamaz).
Tüm görevler eşit ağırlıklıdır (uygulama bağlamına göre ağırlıklandırma yapmaz).

2.2 Mean (Task) — Görev Bazında Ortalama

Bir modelin koşulduğu tüm bireysel görevlerdeki ham skorların aritmetik ortalamasıdır. Örneğin bir model 50 göreve koşulmuş ve her birinden bir skor almışsa, bu 50 skorun ortalaması Mean (Task) değerini verir.

Dikkat edilmesi gereken nokta: Farklı görev türlerindeki metrikler farklı ölçeklerde olabilir. nDCG@10 genellikle 0.3-0.7 aralığında seyrederken, V-measure 0.2-0.5 aralığında kalabilir. Bu nedenle Mean (Task) değeri, görev türü dağılımından etkilenir.

2.3 Mean (TaskType) — Görev Türü Bazında Ortalama

Önce her görev türü (Retrieval, STS, Clustering vb.) içindeki görevlerin ortalaması alınır, ardından bu görev türü ortalamalarının ortalaması hesaplanır. Bu iki aşamalı ortalama, görev türleri arasında denge kurmayı amaçlar.

Örneğin retrieval kategorisinde 15, STS kategorisinde 3 görev varsa, Mean (Task)'te retrieval doğal olarak baskın olur. Mean (TaskType) ise her iki kategoriye eşit ağırlık vererek bu dengesizliği düzeltir.

2.4 Borda Rank ile Mean Arasındaki İlişki

Bu iki metrik farklı hikayeler anlatabilir. Leaderboard'daki snapshot'larda bu açıkça görülür: Borda rank'teki sıralama ile Mean (Task) sıralaması örtüşmeyebilir.

Güncel MMTEB snapshot'ında örnekler:

Qwen3-Embedding-8B, Borda rank'te 4. sırada olmasına rağmen Mean (Task) değeri (70.58) ile kendisinden üst sıradaki Nemotron-8b'yi (69.46) geçmektedir.
Seed1.6-embedding-1215, Borda rank'te 11. sırada kalırken Mean (Task) değeri (70.26) ile üst sıradaki birçok modelden daha yüksek ham ortalamaya sahiptir.

Bu fark şu anlama gelir:

Borda rank: Daha fazla görevde tutarlı biçimde iyi performansı ödüllendirir.
Mean (Task): Koşulan görevlerde ortalama ham performansı yansıtır; bazı görevlerde geride kalma ihtimali barındırabilir.

Model seçiminde her iki metriğin birlikte değerlendirilmesi gerekir.